面部反欺骗(FAS)在确保人脸识别系统中起着至关重要的作用。经验上,给定图像,在该图像的不同视图上具有更一致的输出的模型通常更好地执行,如图1所示。通过这种令人兴奋的观察,我们猜想令人鼓舞的特征符合不同视图的一致性可能是提升FAS模型的有希望的方法。在本文中,我们通过增强FAS中的嵌入级和预测级别一致性正规(EPCR)来彻底探讨这种方式。具体地,在嵌入级别,我们设计了密集的相似性损失,以最大化两个中间特征映射的所有位置之间以自我监督的方式;虽然在预测级别,我们优化了两个视图的预测之间的均方误差。值得注意的是,我们的EPCR没有注释,可以直接融入半监督的学习计划。考虑到不同的应用方案,我们进一步设计了五种不同的半监督协议,以衡量半监督的FAS技术。我们进行广泛的实验表明EPCR可以显着提高基准数据集上几个监督和半监控任务的性能。代码和协议即将发布。
translated by 谷歌翻译
面部反欺骗(FAS)保护人脸识别从演示攻击(PAS)。现有的FAS方法通常监控PA探测器,使用手工制作二进制或像素 - 明智标签。然而,手工制作的标签可能不是监督PA探测器学习足够和内在欺骗线索的最适当的方式。我们提出了一种新的元师FAS(MT-FAS)方法来培训Meta-Tears FAS(MT-FAS)方法,用于更有效地监督PA探测器。元师以双层优化方式接受培训,以了解监督PA探测器学习丰富欺骗线索的能力。双级优化包含两个关键组件:1)元教师在培训集上监督探测器的学习过程的较低级别培训; 2)通过最大限度地减少探测器的验证损失,优化了元教师教学性能的更高级别培训。我们的元老师与现有的教师学生模型有很大不同,因为元教师明确培训,以便更好地教导探测器(学生),而现有教师受过卓越的准确性忽视教学能力。在五个FAS基准上的广泛实验表明,随着拟议的MT-FA,训练有素的Meta-Buiter 1)提供比手工标签和现有教师学生模型更适合的监督; 2)显着提高了PA探测器的性能。
translated by 谷歌翻译
由于高性能,基于2D热图的方法多年来一直占据了人类姿势估计(HPE)。但是,基于2D热图的方法中长期存在的量化错误问题导致了几个众所周知的缺点:1)低分辨率输入的性能受到限制; 2)为了改善特征图分辨率以提高本地化精度,需要多个昂贵的UP采样层; 3)采用额外的后处理以减少量化误差。为了解决这些问题,我们旨在探索一种称为\ textit {SIMCC}的全新方案,该方案将HPE重新定义为水平和垂直坐标的两个分类任务。提出的SIMCC均匀地将每个像素分为几个箱,从而实现\ emph {subpixel}本地化精度和低量化误差。从中受益,SIMCC可以在某些设置下省略其他细化后处理,并排除更简单和有效的HPE管道。通过可可,人群和MPII数据集进行的广泛实验表明,SIMCC优于基于热图的同行,尤其是在低分辨率设置中,较大的边距。
translated by 谷歌翻译
Lesion segmentation requires both speed and accuracy. In this paper, we propose a simple yet efficient network DSNet, which consists of a encoder based on Transformer and a convolutional neural network(CNN)-based distinct pyramid decoder containing three dual-stream attention (DSA) modules. Specifically, the DSA module fuses features from two adjacent levels through the false positive stream attention (FPSA) branch and the false negative stream attention (FNSA) branch to obtain features with diversified contextual information. We compare our method with various state-of-the-art (SOTA) lesion segmentation methods with several public datasets, including CVC-ClinicDB, Kvasir-SEG, and ISIC-2018 Task 1. The experimental results show that our method achieves SOTA performance in terms of mean Dice coefficient (mDice) and mean Intersection over Union (mIoU) with low model complexity and memory consumption.
translated by 谷歌翻译
As a powerful engine, vanilla convolution has promoted huge breakthroughs in various computer tasks. However, it often suffers from sample and content agnostic problems, which limits the representation capacities of the convolutional neural networks (CNNs). In this paper, we for the first time model the scene features as a combination of the local spatial-adaptive parts owned by the individual and the global shift-invariant parts shared to all individuals, and then propose a novel two-branch dual complementary dynamic convolution (DCDC) operator to flexibly deal with these two types of features. The DCDC operator overcomes the limitations of vanilla convolution and most existing dynamic convolutions who capture only spatial-adaptive features, and thus markedly boosts the representation capacities of CNNs. Experiments show that the DCDC operator based ResNets (DCDC-ResNets) significantly outperform vanilla ResNets and most state-of-the-art dynamic convolutional networks on image classification, as well as downstream tasks including object detection, instance and panoptic segmentation tasks, while with lower FLOPs and parameters.
translated by 谷歌翻译
在多代理系统中,植入是一个非常具有挑战性的问题。传统的羊群方法还需要完全了解环境和控制模型。在本文中,我们建议在羊群任务中进化多代理增强学习(EMARL),这是一种混合算法,将合作和竞争与很少的先验知识相结合。至于合作,我们根据BOIDS模型设计了代理商对羊群任务的奖励。在竞争中,具有高健身的代理商被设计为高级代理商,并且那些健身较低的代理商被设计为初中,让初级代理商随机继承了高级代理人的参数。为了加强竞争,我们还设计了一种进化选择机制,该机制在羊群任务中显示出对信用分配的有效性。一系列具有挑战性和自我对比的基准测试的实验结果表明,EMARL显着超过了完整的竞争或合作方法。
translated by 谷歌翻译
由于其简单性和实用性,密度峰值聚类已成为聚类算法的NOVA。但是,这是一个主要的缺点:由于其高计算复杂性,这是耗时的。在此,开发了稀疏搜索和K-D树的密度峰聚类算法来解决此问题。首先,通过使用k-d树来替换原始的全等级距离矩阵来计算稀疏距离矩阵,以加速局部密度的计算。其次,提出了一种稀疏的搜索策略,以加快与$ k $最近邻居的集合与由数据点组成的集合之间的相互分离的计算。此外,采用了决策值的二阶差异方法来自适应确定群集中心。最后,通过与其他六种最先进的聚类算法进行比较,在具有不同分布特性的数据集上进行实验。事实证明,该算法可以有效地将原始DPC的计算复杂性从$ O(n^2k)$降低到$ O(n(n^{1-1/k}+k))$。特别是对于较大的数据集,效率更加明显地提高。此外,聚类精度也在一定程度上提高了。因此,可以得出结论,新提出的算法的总体性能非常好。
translated by 谷歌翻译
现有的转移攻击方法通常假定攻击者知道黑盒受害者模型的训练集(例如标签集,输入大小),这通常是不现实的,因为在某些情况下,攻击者不知道此信息。在本文中,我们定义了一个通用的可转移攻击(GTA)问题,在该问题中,攻击者不知道此信息,并获得攻击可能来自未知数据集的任何随机遇到的图像。为了解决GTA问题,我们提出了一种新颖的图像分类橡皮擦(ICE),该图像分类(ICE)训练特定的攻击者从任意数据集中擦除任何图像的分类信息。几个数据集的实验表明,ICE在GTA上的现有转移攻击极大地胜过了转移攻击,并表明ICE使用类似纹理的噪声来扰动不同数据集的不同图像。此外,快速傅立叶变换分析表明,每个冰噪声中的主要成分是R,G和B图像通道的三个正弦波。受这个有趣的发现的启发,我们设计了一种新颖的正弦攻击方法(SA),以优化三个正弦波。实验表明,SA的性能与冰相当,表明这三个正弦波是有效的,足以打破GTA设置下的DNN。
translated by 谷歌翻译
由于其在保护面部识别系统免于演示攻击(PAS)中的至关重要的作用,因此面部抗散热器(FAS)最近引起了人们的关注。随着越来越现实的PA随着新颖类型的发展,由于其表示能力有限,基于手工特征的传统FAS方法变得不可靠。随着近十年来大规模学术数据集的出现,基于深度学习的FA实现了卓越的性能并占据了这一领域。但是,该领域的现有评论主要集中在手工制作的功能上,这些功能过时,对FAS社区的进步没有任何启发。在本文中,为了刺激未来的研究,我们对基于深度学习的FAS的最新进展进行了首次全面综述。它涵盖了几个新颖且有见地的组成部分:1)除了使用二进制标签的监督(例如,``0'''for pas vs.'1'),我们还通过像素智能监督(例如,伪深度图)调查了最新方法; 2)除了传统的数据内评估外,我们还收集和分析专门为域概括和开放式FAS设计的最新方法; 3)除了商用RGB摄像机外,我们还总结了多模式(例如,深度和红外线)或专门(例如,光场和闪存)传感器下的深度学习应用程序。我们通过强调当前的开放问题并突出潜在的前景来结束这项调查。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译